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摘要 XL A by CD-CAT 的 测验 结果 既 可 用 于 形成 性 评估 也 可 用 于 终结 性 评估 。 基 尼 指 


数 可 度量 随机 变量 的 不 确定 性 程度 ， 值 越 小 则 随机 变量 的 不 确定 程度 越 低 。 本 文 用 基尼 指 


数 度量 被 试 知识 状态 类 别 以 及 能 力 估计 置信 区 间 后 验 概 率 的 变化 ， 提 出 基于 基尼 指数 的 选 


题 策略 。Monte Carlo 实验 表明 与 己 有 的 选 题 策略 相 比 ， 新 策略 的 知识 状态 分 类 精度 和 能 


估计 精度 都 较 高 ， 同 时 能 有 效 兼顾 题库 利用 均匀 性 ， 并 能 快速 实时 响应 ， 且 受 认 知 诊断 模 


型 和 被 试 知 识 状态 分 布 的 影响 较 小 ， 可 用 于 实际 测验 中 含 多 种 认 知 诊断 模型 的 混合 题库 。 


关键 词 认 知 诊断 ;， 项目 反应 理论 ， 基 尼 指 数 ， 双 目标 CD-CAT; 选 题 策略 


终结 性 评价 用 一 个 连续 标量 9 〈 常 称 为 潜在 特质 或 能 力 ) 来 刻画 学 生 在 某 个 学 习 阶 段 


的 学 习 效 果 ， 基 于 项 目 反应 理论 Citem response theory, IRT) 的 计算 机 化 自 适 应 测验 


(computerized adaptive testing, CAT) 以 “量体裁衣 ”的 方式 能 更 高 效 地 实施 终结 性 评估 。 


形成 性 评价 用 一 个 离散 向 量 a 〈 常 称 为 潜在 认 知 模式 或 知识 状态 ) 来 帮助 教师 了 解 每 个 学 


生 的 潜在 认 知 状态 ， 为 教师 提供 教学 反馈 ， 以 便 更 好 的 “因材施教 ”， 这 有 利于 学 生 学 业 和 


教师 职业 发 展 ， 基 于 认 知 诊断 理论 (cognitive diagnostic theory, CDT) 的 CAT 以 “个 性 


化 ”测验 方式 快速 诊断 被 试 认 知 的 长 处 和 短 板 。 教 学 需要 终结 性 评价 与 形成 性 评价 相互 结 


A 


合 ， 既 关注 结果 又 关注 过 程 ， 使 学 习 过 程 和 对 学 习 结果 的 评价 达到 和 谐 统 一 。IRT-CAT X 


注 终结 性 评价 ，CD-CAT (cognitive diagnostic computerized adaptive testing, CD-CAT) 关注 
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形成 性 评价 ， 两 者 结合 的 双 目 标 CD-CAT (dual objective CD-CAT, Dual-CAT) 可 以 将 它们 
的 优势 互补 ， 从 而 更 好 的 完成 测验 目标 。 


Dual-CAT 的 两 个 重点 研究 主题 : 一 是 建构 题库 的 心理 计量 学 指标 ， 正 如 IRT-CAT 依赖 


于 项 目 反 应 模型 Citem response method, IRM), CD-CAT 依赖 于 认 知 诊断 模型 (cognitive 


diagnostic model, CDM), Dual-CAT 也 依赖 于 测验 模型 ， 测 验 模型 与 题库 的 心理 计量 学 指标 


息息相关 。 现 有 文献 , 只 有 统一 模型 (unified model, 也 称 为 fusion model? (Hartz, 2002; Rupp, 


Templin, & Henson, 2010) 和 高 阶 模型 (de la Torre & Douglas, 2004) 将 被 试 的 知识 状态 a 与 
能 力 6 建 构 在 一 个 模型 中 ， 但 统一 模型 所 含 参数 较 多 ， 在 统计 上 难以 估计 (Hartz, 2002), 
此 实际 应 用 较 少 , 而 高 阶 模型 采用 层级 结构 ,将 潜在 特质 视 为 比 潜在 属性 更 高 层 的 一 般 能 力 ， 
能 力 9 与 项 目的 正确 作答 概率 之 间 的 关系 是 通过 被 试 知识 状态 w 间接 相关 ， 只 有 当 属 性 个 数 


较 多 时 (例如 大 于 10), 能 力 6 的 估计 才 会 比较 准确 (de la Torre & Douglas, 2004; Hsu & Wang, 


2015; Huang, 2020)。 因 此 Dual-CAT 的 选 题 策略 研究 大 多 并 不 基于 上 述 两 种 模型 而 采用 分 离 
建 模 的 方法 , 使 用 统一 模型 还 是 使 用 分 离 建 模 这 两 种 方式 决定 了 选 题 策略 的 构造 方法 也 不 同 ， 
对 于 分 离 建 模 方式 需要 IRM 和 CDM 的 模型 参数 ， 如 何 为 这 两 套 模型 参数 建立 联系 是 实施 
Dual-CAT 的 基础 。 

de la Torre 和 Douglas (2004) 的 研究 表明 对 于 同一 批 数据 ， 高 阶 模型 估计 的 0 与 IRT 中 


2PLM (two-parameter logistic model) 模型 估计 的 9 有 较 高 的 相关 性 ;Wang, Zheng 和 Chang 


(2014) 的 研究 也 表明 ， 单 维 项 目 反 应 模型 CIRM) 和 DINA 模型 (Junker & Sijtsma, 2001) 
在 属性 间 高 度 相关 或 线性 层级 相关 时 , 能 够 很 好 地 拟 合 相同 的 数据 , 他 们 的 研究 为 分 离 建 模 
方式 提供 了 支持 ， 采 用 两 步 估 计 方 法 通过 考虑 各 自 的 心理 模型 可 获得 稳定 的 a 和 0 估计 


(Kang, Zhang, & Chang, 2017). 
二 是 选 题 策 略 。 选 题 策略 是 实施 Dual-CAT 的 关键 技术 ， 优 良 的 选 题 策略 应 该 既 能 达到 
较 高 的 分 类 精度 和 估计 精度 以 满足 测验 目的 ; 又 能 保证 较为 均匀 的 题库 利用 率 以 提高 题库 安 
全 , 还 需 具 有 较 快 的 运算 速度 以 满足 实时 响应 的 需求 , 研究 者 们 围绕 这 个 目标 提出 了 多 种 选 


IRT-CAT 和 CD-CAT 的 选 题 策略 分 别 注 重 潜 在 特质 的 评估 和 潜在 认 知 结构 的 评估 ， 如 
何 将 这 两 者 有 效 的 结合 起 来 ? 学 者 们 提出 了 若干 种 适合 Dual-CAT 的 选 题 策略 ， 文 献 中 已 有 


的 Dual-CAT 选 题 策略 主要 有 两 类 : 第 一 类 是 影子 测验 选 题 法 ， 第 二 类 是 组 合 策略 选 题 法 。 


McGlohen 和 Chang (2008) 在 分 离 建 模 方式 下 讨论 了 影子 测验 选 题 法 与 IRT-CAT 和 
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CD-CAT 的 单一 目标 选 题 法 的 性 能 : CIO 利用 IRT-CAT 中 最 大 信息 量 策 略 (maximum 


fisher information, MFI) (Lord, 1980) 或 极 大 化 Kullback-Leibler (KL) (Chang & Ying, 


1996) 信息 量 策略 选择 适合 被 试 当前 估计 能 力 0 的 项 目 ， 测 验 结束 再 估计 被 试 的 知识 状态 


à; (2) 利用 CD-CAT PAAR) G4 Ae MS (shannon entropy, SHE) 或 极 大 化 KL 信息 


t& (Tatsuoka, 2002; Xu, Chang, & Douglas, 2003) 选择 适合 被 试 当前 知识 状态 估计 值 & 的 项 


目 ， 测 验 结束 再 估计 被 试 的 能 力 9; (3) 适应 被 试 当前 能 力 估计 值 4 和 知识 状态 估计 值 & 的 


影子 测验 (shadow test) 选 题 ， 即 先 根据 被 试 能 力 估计 值 b， 采 用 


SS 


(1) 的 方法 构建 最 合适 


0 的 影子 题库 ， 再 从 影子 题库 中 采用 (2) 的 方法 选取 最 适合 当前 知识 状态 估计 值 & 的 项 目 
作为 下 一 题 的 备 选 。 他 们 将 这 三 种 方案 在 能 力 9 估 计 精 度 、 认 知 状态 a 分 类 精度 和 项 目 曝 
光 控 制 等 3 个 指标 上 进行 对 比 ， 研 究 结 果 表 明 影 子 测验 选 题 的 表现 更 优 。 

杜 宣 宣 (2010) 也 采用 了 影子 测验 选 题 法 ， 与 McGlohen 和 Chang (2008) 不 同 之 处 
在 于 ， 他 先 构 建 最 适合 当前 知识 状态 估计 值 & 的 影子 题库 ， 再 从 影子 题库 中 选取 最 适合 当 


前 能 力 估计 值 6 的 项 目 作为 下 一 题 的 备 选 ， 并 在 不 同属 性 层级 结构 下 对 能 力 9 估计 精度 、 知 
识 状态 “分 类 精度 等 指标 进行 对 比 ， 他 的 研究 结果 也 表明 与 单一 目标 选 题 策略 相 比 ， 影 子 
测验 选 题 的 表现 更 优 。 


McGlohen 和 Chang (2008)、 杜 宣 宣 (2010) 的 影子 测验 选 题 是 两 步 估计 法 ， 有 学 者 


WA (Cheng, 2007; Dai, Zhang & Li, 2016) 两 步 “ 局 部 优化 ”的 组 合并 不 一 定 保证 “良好 


的 综合 结果 ”， 更 理想 的 项 目 选择 方法 应 该 在 一 个 步 又 内 同时 考虑 G 和 0 以 获得 更 适合 的 项 
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目 ， 因 此 提出 基于 和 和 6 的 组 合 策略 选 题 法 。 


Cheng (2007) 和 Dai 等 人 (2016) 线性 加 权 组 合 objective = wf() + (—w)g(à) 


的 指标 代 蔡 影子 测验 选 题 ，f(9) 是 关于 6 的 信息 量 ， 如 MFI 或 KL S, gâ) ERFA fi 
信息 量 ， 如 SHE. KL. PWKL (posterior-weighted KL) (Cheng, 2009), MPWKL 

(modified PWKL) (Kaplan, de la Torre, & Barrada, 2015) 和 PWACDI (posterior-weighted 
attribute cognitive discrimination index) (Zheng & Chang, 2016) 等 。 他 们 的 研究 表明 在 能 力 
6 估计 精度 、 认 知 状态 am 分 类 精度 和 项 目 曝光 控制 等 3 个 指标 上 ， 与 影子 测验 选 题 法 相 


比 ， 合 成 指标 表现 更 优 。 


Wang, Chang 和 Douglas (2012) 也 基于 分 离 建 模 方 式 ， 将 对 被 试 知识 状态 的 诊断 视 为 


约束 条 件 ， 使 用 IRT-CAT 中 最 大 优先 级 指标 方法 (maximum priority index, MPI) (Cheng & 


Chang, 2009) 来 选 题 ， 即 一 种 乘法 组 合 策略 : objective = MPI,(a)*f(), 1844 IRT-CAT 
J 


既 可 以 测量 被 试 能 力 又 能 对 被 试 认 知 状态 进行 分 类 。 他 们 的 研究 表明 ， 由 KL 信息 量 构造 
的 MPI 指标 能 够 获得 较 好 的 测量 精度 。 


地 


综合 来 看 ， 组 合 策略 相对 于 影子 测验 选 题 法 而 言 ， 能 更 加 细致 的 刻画 & 和 9 之 间 相 互 


作用 对 选 题 的 影响 。 究 竟 采 用 加 法 组 合 策略 还 是 乘法 组 合 策略 ， 与 1(9) 和 g(&) 


(MPI,(à)) 采用 何 种 信息 量度 量 有 关 。Zheng, He 和 Gao (2018) 对 比 了 多 种 信息 量 的 加 


法 组 合 策略 和 乘法 组 合 策略 ， 他 们 的 研究 结果 表明 这 两 种 组 合 方式 在 不 同 信息 量 下 各 有 优 


加 法 组 合 策略 的 研究 有 Cheng(2007) 的 两 种 KL 信息 量 组 合 的 DIM (dual information 


method) 策略 ，Wang EA 201 为 消除 KL 和 了 PWKL 信息 量 差异 提出 的 ASI (aggregate 


standardized information method) 策略 和 ARI (aggregate ranked information method) 策略 ， 


Kang 等 人 (2017) 用 对 称 KL 信息 量 提出 的 JSD (Jensen shannon divergence) 策略 以 及 


KL 和 MPWKL 信息 量 组 合 的 MASI (modified ARI) 和 MARI (modified ASI) 等 
乘法 组 合 策略 的 研究 有 Wang 等 人 (2012) 提出 的 MPI 的 加 权 策 略 ，Dai 等 人 
(2016) 用 对 数 转 换 消 除 MFI 信息 量 和 SHE 信息 量 量 纲 差异 ， 将 加 法 组 合 策略 转换 为 乘 
pu 


WE, Zheng A (2018) 提出 的 IPA 


= 法 组 合 策略 的 DWI (dapperness with information) 
( (information product approach) 策略 等 。 

这 些 选 题 策略 在 一 定 条 件 下 ， 都 有 各 自 的 优势 ， 或 精度 较 高 但 因 运 算 量 大 选 题 耗 时 较 

多 ， 如 IPA 策略 ， 或 精度 稍 低 但 可 预先 计算 减少 选 题 用 时 ， 如 ASI 策略 ， 或 精度 更 低 但 用 

时 少 且 题库 利用 率 较 均匀 ， 如 JSD 策略 。 另 外 这 些 选 题 策略 ， 还 可 能 存在 因 两 种 信息 量 量 

纲 差异 较 大 造成 合成 指标 有 所 偏向 ， 或 因 进 行 转换 以 消除 量 纲 差异 所 带 来 的 信息 损失 等 问 


题 。 我 们 希望 开发 一 种 对 和 和 0 而 言 量 纲 比 较 统一 的 信息 指标 ， 既 保证 估计 精度 和 分 类 精 


度 较 高 ， 又 能 兼顾 题库 利用 率 均 匀 性 且 选 题 耗 时 较 少 的 新 策略 。 
在 CD-CAT F, 大 多 采用 贝 叶 斯 决策 对 被 试 进行 分 类 , 被 试 的 知识 状态 类 别 是 一 个 随机 
变量 ， 当 类 条 件 概率 和 先 验 概率 已 知 的 情况 下 , 通过 贝 叶 斯 公式 计算 被 试 属于 每 个 类 别 的 后 


验 概率 , 将 被 试 的 类 别 决策 为 后 验 概率 大 的 一 类 , 理论 | 


上 已 证 明 这 种 决策 的 平均 错误 率 最 低 


( 张 学 工 ，2010, P14-15)， 因 此 贝 叶 斯 决策 通常 也 称 最 小 错误 率 贝 叶 斯 决策 。 研究 表明 ( 陈 
平 ， 李 珍 ， 辛 涛 ，2011; SN, se, EKW, BHA, PREY, 2018; Wang & Chang, 
2011)， 基 于 被 试 知 识 状态 类 别 的 后 验 概 率 所 构造 的 选 题 策 略 Zheng & Chang, 2016) 和 基 
于 被 试 能 力 估 计 置 信 区 间 的 后 验 概 率 所 构造 的 选 题 策略 具有 较 高 分 类 精度 和 估计 精度 ， 如 


CD-CAT HE A SENE CTatsuoka, 2002; Xu et al., 2003) 和 多 维 IRT-CAT FEER CK 


GAS) 策略 CWang & Chang, 2011; 韩 雨 婷 等 , 2018). 
业 用 于 度量 随机 变量 不 确定 性 ， 箭 越 大 ， 随 机 变量 的 不 确定 性 就 越 大 。 在 CD-CAT 

中 ， 用 和 度 量 被 试 知识 状态 类 别 后 验 概 率 的 变化 ， 然 后 采用 贝 叶 斯 决策 根据 被 试 知识 状态 

类 别 的 后 验 概率 进行 分 类 ， 焙 的 变化 直接 反映 各 类 别 后 验 概率 的 变化 ， 因 而 基于 焙 所 构建 


HX LTE WR AN OP SS EG ER ey, MERKAR CTatsuoka, 2002; Xu et al., 2003 )。 统 计 学 


RA 
中 ， 基 尼 指 数 也 是 一 种 度量 随机 变量 不 确定 性 的 指标 ， 并 应 用 于 决策 树 的 分 类 算法 ， 如 既 


AEF MAW ID3 算法 (Quinlan, 1986) 和 C4.5 算法 (Quinlan, 1993)， 也 有 基于 基尼 指数 的 


CART 算法 (Breiman, Friedman, Stone, & Olshen, 1984)， 这 些 算法 都 是 机 器 学 习 中 的 经 典 


算法 (周志 华 ，2016)。 


本 研究 拟 采 用 基尼 指数 构建 双 目 标 CD-CAT 的 选 题 策略 。 基 尼 指 数 和 焙 有 共性 也 有 差 


异 。 两 者 的 共性 在 于 它们 都 可 以 度量 随机 变量 的 不 确 


定性 程度 


既 可 以 处 理 连续 型 随机 变 


量 又 可 以 处 理 离 散 型 随机 变量 。 设 离散 型 随机 变量 和 所 有 可 能 


RAVE Ax, (v —1,2,..V), 


X WANT ARAL MME p{X 一 zy) = p,v=1,2,...V, HYS p, 二 1， 那 么 随机 变量 X 


MALAI: Ent(X) —- 0" ,pulnp,， 随 机 变量 X 的 基尼 指数 可 以 表示 为 : 


Gini(X) = 35, pd —p.) 21— OY? Sf) =-Iny， 在 y=1 处 进行 一 阶 泰勒 展 


可 近似 转化 为 : 


JF CAME IAD), fy =f 十 六 DG 一 DT+TOG ~1—-y, Auk, 在 p, 二 1 处 炳 


Ent(X) =- 33. ,p,lnp, = 325 p, CInp,) ~ $2, pA p) =Gini(X)!, WHER 


[E mb, fci AE ete BO AATF. WAAR SX EA, JRE TAL AE SCIES SE FDA 


数 加 权 ， 反 映 的 是 一 种 非 线性 关系 ， 而 基尼 指数 使 ) 


! 摘自 https://www.jianshu.com/p/75518e6a5c64 


线性 加 权 ， 反 映 的 是 一 种 线性 关系 。 


WAPI TE SEZ SUP A Be Fh, SESE TR BUA RFM, DIESE T EE AE HY JG Sl 
KRAMERA R A Be PE, IS ETRY OR SR, AE ea 
数 的 线性 加 权 方 式 对 测验 过 程 中 各 类 别 的 后 验 概 率 变化 更 加 敏感 ， 从 而 有 助 于 扩大 选 题 范 
围 ， 有 利于 提高 题库 利用 率 。 

本 文 利用 基尼 指数 的 上 述 优 良性 质 , 提出 基于 基尼 指数 的 选 题 策略 ， 期 望 新 策略 能 保证 
测量 精度 , 同时 兼顾 题库 利用 均匀 性 并 能 快速 实时 响应 ,为 同时 兼顾 宏观 能 力 评估 和 微观 认 
知 诊断 提供 新 的 更 优 的 方法 。 


2 已 有 双 目 标 CD-CAT 选 题 策略 简 述 


我 们 介绍 三 种 有 代表 性 的 Dual-CAT 的 选 题 策略 。ASI 策略 是 加 法 组 合 策略 的 代表 ， 通 
过 标准 化 消除 了 两 种 信息 量 量 纲 差 异 后 再 将 转换 后 的 信息 量 进行 线性 加 权 ; IPA 策略 是 乘法 


组 合 策略 的 代表 ;JSD 策略 是 题库 利用 率 最 均匀 且 选 题 耗 时 最 少 的 选 题 策略 代表 。 
2.1 ASI 策略 


Cheng (2009) 提出 用 PWKL 策略 代替 KL 策略 ， 极 大 地 提高 了 被 试 的 知识 状态 aw Ca 


一 个 0 和 1 构成 的 向 量 ) 的 分 类 精度 ， 设 测验 测量 天 个 独立 属性 ， 被 试 的 知识 状态 有 2< 


是 
© 类 ， 测 验 结束 将 被 试 划分 到 其 中 的 一 类 ， PWKL 选 题 策略 的 目标 函数 为 : 


~ Objective = arg max (PWKL, (&)) (1) 
ii JER, 
: PWKL; (â) = Y [m,(a,|Y)*KL, (à||o.)] (2) 
-— c=1 
1 A 
Alle) — p(Y; -y|o) EP" 
KL, (alla) = Dolog( Bey — 55 )P0 = ui) a 


FR, AGES a DIR IUE» j ARATE FINA, c=1,2,...,2% 为 被 试 知 


识 状态 的 类 别 下 标 ，ac 7325 种 知识 状态 的 第 c 个 类 别 ，m aY) 为 在 + 个 项 目的 得 分 模式 


Y = (Yi, Yo, Y) FH a. REAR, Yy KRAE H j 的 得 分 ，y 为 项 目的 可 能 得 分 ， 


对 于 两 级 评分 项 目 而 言 , y 二 0 或 1， â 为 被 试 知识 状态 的 当前 估计 值 ，D( 玉 三 引 G) 为 给 定 


CDM 和 已 知人 么 时 ， 被 试 作 答 第 7 题 的 答对 概率 。 


Chang 和 Ying (1996) 用 KL 策略 代替 MFI 策略 来 测量 被 试 的 能 力 9 (0 是 一 个 连续 变 


量 )， 以 克服 当 作答 项 目 比 较 少 时 能 力 估 计 不 准确 的 问题 ，KL 选 题 策 略 的 目标 函数 为 : 
6 


为 给 


JÀ 


Objective = arg max (KL, (8)) (4) 


KL,(8) = [^ K (oloja (5) 
nc) ee 
K; (êlo) = 5 log aa p(Y;=ylô) (6) 


其 中 6 建议 取 3/V+ ，t 为 被 试 已 作答 的 项 目 数 ，0 为 能 力 6 的 当前 估计 值 ， p(Y; =y) 


5E IRT PAY IRM 和 已 知 9 时， 被 试 作答 第 7 题 的 答对 概率 。 


Cheng (2007) 提出 DIM 选 题 策略 ， 将 关于 6 的 KL 信息 和 关于 & 的 KL 信息 线性 组 合 


个 信息 量 以 满足 双 目 标 CD-CAT 选 题 的 要 求 ，DIM 选 题 策略 的 目标 函数 为 : 
Objective = DIM, (à, (7) 
Jectvve arg max ( AG )) 
DIM, (6,6) = wKL,(à) + (1 —w) KL, (ô) (8) 
其 中 为 权重 。 


Wang 等 人 (2014) 将 DIM 策略 中 关于 和 的 信息 度量 用 PWKL 信息 量 代 换 ， 并 认为 


PWKL;j(&) 和 KL;(9) 量 纲 不 一 致 ， 可 采用 标准 化 方法 消除 两 者 之 间 的 差异 ， 进 而 提出 了 


ASI EHE, ASI 选 题 策略 的 目标 函数 为 : 


Objective = arg (AST, (4, 8)) (9) 
ASI, (à,0) = wPWKL; (â) + (1— w) KL} (ô) (10) 


(PWKL;(à) — mean (PWKL (à))) 
SD(PWKL.(à)) 


(KL, (8) — mean (KL (8))) (12) 
DO) 


KP mean (PWKL (6)) 7358] R EE R, MA H H 2& T MGR EUR S 25 B fi TH àv 的 


(11) 


PWKL;(à)— 


KL;(0) = 


PWKL 信息 量 均值 ，SD (PWKL (6)) 为 其 标准 差 。mean (KL (0) ) 为 剩余 题库 尽 , 所 有 项 目 


关于 能 力 当前 估计 值 9 下 KL 信息 量 的 均值 ，SD( KL(9) ) 为 其 标准 差 。Wang “A (2014) 


还 建议 权 


Ew 取 值 为 1 一 tTL ，t 为 已 做 答 项 目 数 ，TL 为 预 设 的 测验 长 度 。 


由 


2.2 IPA 策略 


Zheng 和 Chang (2016) 提出 适用 于 CD-CAT 短 测验 的 PWACDI Cposterior-weighted 


attribute cognitive discrimination index) 选 题 策略 ，PWACDI 选 题 策略 的 目标 函数 为 : 


Objective = argmax (PWACDI;) (13) 
jek. 
“1 
PWACDI, = Dae DW (14) 
k=1 all relevant cells 
i pY; = ylau) 
PWD po = 7 (lY) *T (o,|Y)* l Y; = yla,)*lo Geol (15) 
; (o. tn (o Y* | pW; = alo.) "logi poy = ax) 


RP, 飞 和 v 为 被 试 知识 状态 的 类 别 下 标 ，av Alla, 73 2 种 知识 状态 中 不 相同 的 两 个 类 
3|, PWD;jw 为 根据 项 目 j 构 造 的 2* x 2* 8] KL 信息 矩阵 ， 和 矩阵 内 的 元 素 为 任意 两 个 知识 
状态 的 期 望 加 权 KL 距离 。all relevant cells 是 指 PWD ju, ERE FP PARA I] AUD S cw, Flav, 
所 对 应 位 置 的 所 有 元 素 ， 且 这 两 种 知识 状态 仪 在 第 天 个 属性 值 是 不 同 的 ， 其 他 属性 值 相 同 。 
PWACDI 选 题 策 略 与 被 斌 当前 知识 状态 估计 值 & 无 关 ， 并 且 注 重 区 分 2* 种 模式 中 ， 那 些 差 


Iml 
my 


异 较 小 的 模式 ， 这 不 同 于 PWKL 策略 。 


Zheng 等 人 (2018) 提出 适用 于 双 目 标 CD-CAT 的 IPA 策略 ， 认 为 该 策略 能 提供 一 个 统 
一 的 框架 来 连接 其 他 的 双 目 标 选 题 策略 ， 将 “权重 ? 视 为 与 IRT 信息 相等 的 对 应 项 ， 则 不 需 考 
虑 公式 〈10) 中 的 权重 。 信 息 量 乘法 的 选 题 策略 的 目标 函数 为 : 


Objective = arg max bs x KL; (6) | (16) 


万 可 以 是 PWKL;(à)m PWACDI, Me CD-CAT PEIR, Mh Zheng 等 人 


(2018) HUGH, PWACDI, x KL; (Ô) KRINE. 


2.3 JSD 策略 


Kang ÆA (2017) 提出 JSD 选 题 策略 ， 不 同 于 PWKL 策略 ， 它 是 对 称 的 KL 信息 ， 


4n= (4,0), ISD 选 题 策略 的 目标 函数 为 : 
Objective = Wa (78; (alj)) (17) 


J8;(à 


6) —wKL;(à||m) + Q — w) KL, (Oln) (18) 


gm) — wp (Y; — vlà) + Q—w)p(Y; — y) (19) 
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KL, (Alin) = Y p¥,=vla)log( 20748) (20) 


g; (7) 


A : P3 Y; = 6 
KL; (In) = > »(Y; =yl8)log M (21) 
y-0 


特别 说 明 ， 为 了 更 清楚 的 描述 ISD 策略 ， 我 们 补充 了 一 些 符号 ， 因 此 本 文中 ISD 选 题 
策略 中 的 表达 式 与 原文 (Kang etal., 2017) 不 是 完全 相同 , 但 没有 改变 选 题 策略 本 身 的 含义 。 


3 基于 基尼 指数 的 双 目 标 CD-CAT 选 题 策略 
本 研究 分 别 定义 了 基于 被 试 知识 状态 类 别 的 后 验 概率 和 基于 被 试 能 力 估计 置信 区 间 的 
后 验 概率 的 基尼 指数 , 并 将 两 者 组 合 构成 基于 基尼 指数 的 双 目 标 CD-CAT 新 策略 ,以 期 达成 


高 精度 、 高 题库 利用 率 和 快速 反馈 的 测验 需求 。 
3.1 基于 基尼 指数 的 CD-CAT 选 题 策略 


设 测 验 考查 天 个 属性 ， 在 + 个 项 目的 得 分 模式 站 三 (六 , 玖 到) BRIO. 


(c—1,2,.,2*) 的 后 验 概率 为 fs (a,Y) Anla HT m (o) 二 1， 根 据 基 


尼 指 数 的 定义 《〈 李 航 ，2012)， 则 被 试 知 识 状态 类 别 后 验 概 率 的 基尼 指数 定义 为 : 


Gini_CD(m) = 35. [m (0*0 — m(a.))] 21— 2: [r (a) ]? (22) 


m (a) % mo (o) IT [Cpr (09) ^ Q — (02) ^] (23) 


和 为 t 个 项 目的 反应 模式 也 三 《六 ,殉葬 下 知识 状态 类 别 后 验 概率 的 集合 ，ro (ao) 是 


Kala. 的 先 验 概率 , 一 般 取 1/2*，pi, (Qc) 为 给 定 CDM 下 知识 状态 为 ae 的 被 试 答对 第 h 题 的 


概率 ， 坟 为 被 试 在 项 目的 得 分 ， 其 他 符号 的 含义 同 第 2 节 。 


Gini CD (ni) 刻画 在 i 个 项 目的 反应 模式 Y = (Yi, Yo, Y) 下， 被 试 知识 状态 类 别 后 验 


概率 分 布 的 离散 程度 , 其 值 越 小 则 概率 分 布 越 集中 ， 即 一 个 或 菜 些 类 别 的 后 验 概率 会 远大 于 
其 他 类 别 ， 从 而 有 助 于 提高 贝 叶 斯 决策 对 被 试 分 类 的 准确 性 。 人 遍历 并 选择 剩余 题库 中 使 


Gini_CD (i 六) 取得 最 小 值 的 项 目 ;作为 下 一 题 的 候选 。 


由 于 被 试 对 候选 项 目 j 的 作答 反应 Y; 未知 ， 对 于 两 级 评分 项 目 ，YY; 的 值 为 0 或 1 ( 即 
% 一 0 或 1 )， 定 义 被 试 知识 状态 类 别 后 验 概率 的 期 望 基尼 指数 ; 


E[Gini_CD(m,,Y;)] = 35, ,Gini CD(s |Y; = y)*P (Y; = y|n) (24) 
由 全 概率 公式 


P(Y;= ym) = Y. [(oi(ao)7G p; (a.)) = Irla) (25) 


Gini_CD 选 题 策略 的 目标 函数 为 : 


Objective = arg min (E[Gini CD(r,,Y;)]) (26) 


JER, 


Ri 为 被 试 的 剩余 题库 ， 即 从 剩余 题库 中 选择 上 共有 最 小 [Gini_CD (x, 六)] 的 项 目 j。 


3.2 基于 基尼 指数 的 IRT-CAT 选 题 策略 


在 IRT-CAT 测验 初始 阶段 ， 由 于 被 试 当前 能 力 估 计 值 0 往往 与 被 试 真实 能 力 值 偏差 较 
大 ， 此 时 基于 6 的 Fisher 信息 量 不 是 一 个 好 的 测验 效率 指示 量 ， 因 此 在 测验 初始 阶段 不 能 
发 挥 重要 作用 (Chang & Ying, 1996). Veerkamp 和 Berger (1994) 提出 用 基于 置信 区 间 中 


信息 函数 的 最 高 均值 代替 基于 某 一 点 的 项 目的 区 间 信 息 选 题 准则 ， 较 好 地 克服 了 由 于 0 ik 
计 不 准 带 来 的 低 效 选 题 问题 。 


优良 的 选 题 策略 使 得 被 试 能 力 估计 值 6 随 着 测验 的 进行 ， 越 来 越 接 近 其 真实 值 ， 根 据 
Chang 和 Ying (1996) 以 及 Wang 和 Chang (2011) PKL @)afa E SERIE E X. R 
们 定义 了 基于 被 试 能 力 估 计 值 6 的 置信 区 间 后 验 概率 的 基尼 指数 , 它 类 似 于 KL 全 局 信息 量 ， 


利用 区 间 信 息 代 痊 某 个 估计 点 的 信息 。 令 9 二 0 十 i 和 90， 
Gini IRT(v.(0)) -[^ [7, (0) * (1 — 1, (8)) ]d0. ~ Ye (4)*(1—».(8))| Ag (27) 
v, (8) em (8) IT,..[(»(9)) Q7 »(8)) | (28) 


其 中 ,x,(9) 为 t 个 项 目的 反应 模式 Y = (Ya, Yo, Y) 下 ， 能 力 估计 值 6 的 置信 区 间 内 后 


验 概率 的 集合 ，Chang 和 Ying (1996) 建议 6 二 3/Vt， 根据 BILOG 程序 中 计算 后 验 期 望 概 


率 的 推荐 值 ， 取 求 积 结 点 数 为 与 2VE 相 近 的 自然 数 ，s= |2Vt|/2 ,“[「 1” 表 示 向 上 取 整 ， 


zo(9) 是 6 的 先 验 概率 ， 若 能 力 先 验 信息 未 知 则 取 均 匀 分 布 。p, (9 为 给 定 IRM 下 能 力 为 6 
的 被 试 答对 第 题 的 概率 ， 其 他 符号 的 含义 同 第 2 节 。 


遍历 并 选择 剩余 题库 中 使 Gini_TRT(re(b), 瑟 ) 取 得 最 小 值 的 项 目 7 作为 下 一 题 的 候选 。 
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FS eA RIA GEE RY, A AU, MPRA, YHA 0 或 1( 即 


y = 08k 10, ECE AIA TE PC E DX DET a a TI 9] 2B HE JE HL: 


E|Gini IRT(v.(0), 


Y] 


= Ð Gini IRT(n.(0)y;-y)*P(Y;-ym(8)) | Q9 


P(v,-w(9)) = f (09) (—»(8)) "eae (30) 


Gini | IRT 选 题 策略 的 目标 孙 BN: 


Objective = arg min (E [Gini IRT(x, (8),v;) J) (31) 


R 为 被 试 的 剩余 题库 ， 


3.3 组 合 策略 


即 从 剩余 题库 中 选择 具有 最 小 如 | Gini. IRT (v. (8), Y;) | 的 项 目 5 。 


Cheng (2007) 和 Wang A (2014) 提出 将 基于 被 试 知识 状态 & 的 KL 信息 函数 和 能 
718 8) KL 信息 函数 进行 加 权 线 性 组 合 以 得 到 单一 信息 量 形 式 的 双 目 标 选 题 策略 ,如 公式 (8) 
All (10). Zheng 等 人 〈2018) 提出 将 两 个 函数 相 乘 的 双 目 标 选 题 策略 ， 如 公式 (16)。 由 于 


乘法 运算 更 加 费时 。 我 们 采 
基于 基尼 指数 的 双 目 标 选 题 策略 目标 函数 。 


| Cheng (2007) 和 Wang A. (2014) 的 线性 加 权 和 方式 获得 


本 文 提出 的 新 策略 基于 两 个 随机 变量 后 验 概率 的 基尼 指数 构造 的 新 指标 , 由 于 每 个 随机 
变量 后 验 概率 的 取 值 范围 为 
数 指标 的 量 纲 不 会 有 很 大 差异 ， 不 需要 像 Wang A (2014) 将 两 个 KL 信息 量 进行 标准 化 


再 进行 线性 组 合 ， 因 


Gini 选 题 策略 的 月 


转化 还 


标 函 


[0,1]， 且 后 验 概 率 的 累加 和 为 1， 这 两 个 后 验 概率 构造 的 基尼 指 


:是 会 带 来 信息 损耗 ， 新 集 略 的 合成 方法 保持 了 原 有 信息 。 
数 为 : 


Gini, (4,0) = w*E[Gini_CD(m,,Y,)] + Q— w) E|Gini IRT(m.(0),Yv;)| (32) 


Objective = ee (Gini; (6,0)) 


(33) 


4 模拟 实验 设计 


为 考察 不 同 CDM、 被 试 不 同 知 识 状态 分 布 以 及 不 同 测验 长 度 下 新 集 略 的 性 能 及 其 与 其 


其 中 ，w 是 权重 ， 根 据 Wang 等 人 (2014) 的 建议 ， 在 高 质量 题库 中 建议 使 用 理论 权 


重 w 二 1 一 tTL，t 为 已 做 答 项 目 数 ，7TL 为 预 设 的 测验 长 度 。 
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他 选 题 策略 的 比较 ， 开 展 了 Monte Carlo 模拟 实验 研究 。 实 验 考察 了 3 种 CDM (G-DINA, 
DINA, R-RUM) x3 种 被 试 知识 状态 的 分 布 (高 阶 模型 、 高 相关 多 元 正 态 模型 和 低 相 关 多 元 


正 态 模型 〉x4 种 测验 长 度 C5. 10. 15. 20) =36 种 情形 下 新 策略 的 表现 。 
4.1 认 知 诊断 模型 


在 饱和 模型 G-DINA (de la Torre, 2011) 和 缩减 模型 (DINA, R-RUM) (Hartz, 2002; Junker 
& Sijtsma, 2001) 下 讨论 各 选 题 策 略 表现 。G-DINA 模型 在 适当 约束 条 件 下 可 简化 为 不 同 的 
缩减 模型 : Æ G-DINA 所 有 主 效应 和 低 阶 交 互 效应 值 为 0， 则 其 简化 为 DINA 模型 ， 若 对 数 
连接 函数 的 所 有 交互 效应 的 值 为 0， 则 可 得 R-RUM. 


4.2 题库 参数 和 被 试 知识 状态 
4. 2. 1 模拟 题库 项 目的 属性 向 量 


设 题库 考察 5 个 独立 属性 ， 每 个 项 目 最 多 考察 3 个 属性 即 共 25 (CI+C2+C3=25) 


种 项 目 属性 向 量 ， 每 种 属性 向 量 重 复 10 次 ， 可 得 题库 中 250 个 项 目的 属性 向 量 。 
4. 2.2 模拟 被 试 知识 状态 的 真 值 


被 试 知识 状态 采用 两 种 方式 模拟 ， 一 种 采用 HO-CDM (Wang et al., 2012, 2014; Huang, 


2020)， 另 一 种 采用 多 元 正 态 分 布 生 成 (Dai etal., 2016; Kang et al., 2017)。 考 察 这 两 种 模拟 
方式 是 因为 他 们 的 作答 反应 数据 可 以 同时 拟 合 CDM 和 IRT 的 模型 , 也 是 双 目 标 CD-CAT 中 
常用 的 模拟 方法 。 

(1) 被 试 知 识 状态 用 HO-CDM (de la Torre & Douglas, 2004) 生成 。 高 阶 模型 假定 考 
生 是 否 掌 握 某 个 属性 与 泛 化 的 潜在 能 力 有 关 。 通 过 logit 链接 ， 给 定 高 阶 能 力 6, ， 被 试 ? 掌 


exp (Au (8; — Aor) ) 
1+ exp (Aiz (0; — Ao) 


握 属 性 的 概率 定义 为 : PQouJ0) = 


类 似 IRT 中 的 2PLM 模型 ， 


其 中 入 ;和 Xo 是 区 分 度 参数 和 位 置 参 数 ，0;~N(0,1)，lIn 入 ~N(0,1) 将 值 的 约束 在 [0.2, 


2.5] 区 间 范 围 内 )，Xok~N(0,1)， 另 生成 随机 数 r ，r~uniform(0,1)， 如 果 


P(o|0;) Sr, lFa,=1, fWj4&o;-0O (Ma & dela Torre, 2020). 


(2) 被 试 知识 状态 用 多 元 正 态 模型 生成 。 采 用 多 元 正 态 阔 值 模型 〈 均 值 为 0， 变 量 间 
的 相关 分 别 设 0.8，0.2 两 种 水 平 ， 分 别 代表 属性 间 存 在 高 相关 和 低 相 关 ) 生成 被 试 真实 属 


性 掌握 模式 ， 用 0 作为 截断 点 获得 离散 值 知 识 状态 (Ma & de la Torre, 2020). 


4.2. 3 模拟 题库 CDM 项 目 参数 和 IRT 模型 参数 


采用 第 1 节 介 绍 的 分 离 建 模 方法 构建 题库 ，CDM 模型 分 别 采 用 G-DINA、DINA il R- 
RUM 模型 ，IRT 模型 采用 2PLM， 这 些 模型 是 研究 和 实践 中 经 常 使 用 的 模型 。 


题库 参数 用 R 软件 中 的 GDINA 包 和 mirt 包 模 拟 和 估计 。 


以 G-DINA 模型 和 被 试 的 知识 状态 采用 高 相关 多 元 正 态 模型 生成 为 例 介绍 题库 项 目 


数 的 模拟 。 


m 


(1) 根据 GDINA 包 (Ma & de la Torre, 2020) 的 说 明文 要 ，CDM 参数 的 设 定 可 以 采 


用 三 种 方法 。 第 一 种 方法 ， 为 每 个 项 目 指定 猜测 参数 p(0) 和 失误 参数 1 一 p(1)， 其 中 ， 


p(0) 表 示 未 掌握 项 目 任何 一 个 考察 属性 的 被 试 正确 作答 概率 ，p(1) 表 示 掌 握 了 项 目 所 有 考 
察 属性 的 被 试 正确 作答 概率 ， 其 他 类 型 的 被 试 作答 概率 从 Lp(0),p (1)] 中 生成 ， 需 符合 约束 


单调 性 原则 ， 即 掌握 项 目 


考察 属性 个 数 多 的 被 试 的 正确 作答 概率 大 于 掌握 项 目 所 考察 属性 


个 数 少 的 被 试 的 正确 作答 概率 ;第 二 种 方法 ， 为 每 个 项 目的 每 种 知识 状态 指定 答对 概率 ; 


第 三 种 方法 ， 为 每 个 项 目 


指定 G-DINA 模型 中 的 delta 参数 。 


因 第 一 种 方法 简单 易 操作 ， 本 研究 采用 第 一 种 方法 ， 利 用 GDINA 包 中 的 simGDINA 


函数 模拟 G-DINA 模型 的 项 目 参 数 ， 设 p(0)~uniform(0.05,0.25)， 
Pp(1)~uniform(0.75,0.95)， 其 他 掌握 了 项 目 所 考察 的 部 分 属性 的 被 试 正确 作答 概率 从 
[p(0),p (1D)] 中 生成 ， 正 确 作答 概率 保证 单调 性 。 


(2 


WY 


因为 ?PLM 的 项 目 参 数 估计 需要 1000 以 上 样本 才能 获得 较 好 的 精度 ， 本 文 利用 


高 相关 多 元 正 态 模型 模拟 3000 个 被 试 的 知识 状态 ， 根 据 已 知 的 每 个 项 目 属性 向 量 和 G- 


DINA 模型 的 项 目 参数 获 


得 每 个 被 试 在 每 个 项 目 上 的 正确 作答 概率 了 ， 另 外 生成 随机 数 ”， 


r-uniform(0,1), mRP2r, ， 则 令 得 分 为 1， 否则 令 得 分 为 0， 即 获得 3000*250 的 完全 
得 分 阵 (Wang et al., 2012, 2014)。 将 得 分 阵 用 R 软件 中 的 mirt 包 (Chalmers, 2012) 中 
mirt KAMA 2PLM 可 得 题库 中 250 个 项 目的 区 分 度 和 难度 参数 ， 用 R 软件 中 的 GDINA 


包 中 GDINA 函数 对 G-D 


INA 模型 参数 进行 校正 ， 以 获得 更 准确 的 参数 。 


按照 上 述 方 法 ， 可 以 获得 相应 的 3 C(G-DINA, DINA, R-RUM) *3 (高 阶 模 型 、 高 相关 


多 元 正 态 模 型 和 低 相 关 多 元 正 态 模型 ) =9 种 题库 的 CDM 的 参数 和 2PLM 参数 。 
4. 2. 4 模拟 被 试 能 力 的 真 值 


被 试 对 项 目的 反应 是 根据 CDM 模型 模拟 生成 ,模拟 被 试 作答 题库 所 有 项 目的 反应 数据 


~ 


将 反应 数据 用 期 望 后 验 全 


法 (Bock & Mislevy, 1982) 估计 被 试 的 能 力 值 作为 其 真 值 (Wang 


et al., 2012, 2014; Dai et al., 2016; Kang et al., 2017). 


4.3 选 题 策 略 


DIM 策略 (Cheng, 2007) 是 首 个 将 两 个 KL 信息 量 进行 线性 组 合 的 策略 ，ASI 策略 将 两 
个 信息 量 标准 化 以 消除 两 个 信息 量 的 量 纲 差异 后 再 线性 组 合 ， 根 据 Wang A (2014) 的 研 


TAR, ASI 策略 优 于 DIM 策略 。 根据 Zheng 等 人 (2016，2018) 的 研究 结果 ，PWACDI 策 


略 在 短 测 验 上 的 分 类 精度 优 于 PWKL 策略 ,PWACDI*KL 策略 和 DWI 策略 (Dai etal., 2016) 


都 属于 双 信 息 量 的 乘法 组 合 策略 IPA, WA (Zheng etal., 2016, 2018) 表明 , PWACDI*KL 在 
— fi IPA 策略 中 表现 更 好 。JSD 策略 (Kangetal.,2017) 基于 被 试 当 前 知识 状态 估计 值 和 能 
力 估计 值 的 对 称 KL 信息 选 题 ， 在 选 题 过 程 中 不 需要 积分 运算 ， 因 此 运算 简单 ， 选 题 速 度 和 
k, IRIE Kang SA (2017) 的 研究 ，JSD 策略 与 其 他 策略 相 比 在 选 题 用 时 和 题库 利用 均匀 
生 上 有 较 大 的 优势 。 


本 文 将 Gini 策略 与 ASI 策略 (Wang et al., 2014)、IPA 中 的 代表 PWACDI*KL 策略 


—- 


(Zheng et al., 2018), JSD (Kang et al., 2017) 策略 在 9 种 题库 下 进行 对 比 ， 从 测量 精度 
(包含 知识 状态 分 类 精度 和 能 力 估计 精度 )、 题 库 利 用 均匀 性 和 选 题 用 时 等 方面 考查 新 策略 
的 性 能 。 


4.4 终止 规则 


实验 均 采 用 定 长 测验 ， 定 长 测验 设置 了 4 个 水 平 : 5、10、15 和 20 Hi. 
4.5 评价 指标 
4.5.1 知识 状态 分 类 精度 指标 

模式 判 准 率 是 评价 知识 状态 分 类 精度 的 指标 ， 值 越 大 ， 分 类 精度 越 高 。 
> 1G, =a) 

N 


PMR = 


其 中 7(e) 表示 当 条 件 。 为 TRUE 时 ， 计 数 为 1， 否则 为 0。W 为 被 斌 人数。&; 是 被 试 知 
识 状 态 的 估计 值 ，a; 是 被 试 知识 状态 的 真 值 。 
4.5.2 能 力 估计 精度 指标 

用 Bias 和 RMSE 作为 能 力 估 计 精 度 的 指标 。 值 越 小 ， 参 数 返 真 性 越 高 。 


. 1 NA 
Bias =— 5)" 18-8 | 


int 


4.5.3 题库 使 用 均匀 性 指标 


FH AW BRED 


用 率 越 高 。 


4.5.4 选 题 用 时 


] oN ,A 
RMSE = 2540-8 


其 中 6, 被 试 能 力 估 计 值 ，9; 被 试 能 力 真 值 。 其 他 变量 含义 同上 。 


FE 价 题库 使 用 均匀 性 的 重要 指标 ,， 值 越 小 ， 题库 使 用 越 均 匀 ， 利 


a0! N -TLILY 


卡 方 值 指标 77 = 
TL/L 
L 
N INY 
Jis SEX TOE = x Ža ) 1 


其 中 mj 为 项 目 j 的 曝光 次 数 , 工 为 题库 容量 ,7L 设 定 的 测验 长 度 , 其 他 变量 含义 同上 。 


(N-DxTL | N-1 
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N 


TC = 


其 中 ,7 为 第 i 个 被 试 完成 测验 所 需 时 间 (单位 : 秒 )。 由 于 模拟 研究 的 时 间 消 耗 主要 在 


= 先 题 上 ， 其 他 有 


时 可 忽略 不 计 ， 


4.6 CAT 实施 过 程 


整个 CAT 


因此 TC 即 为 选 题 耗 时 。 值 越 小 ， 选 题 速度 越 快 。 


的 程序 ， 运 行 于 Python3， 硬 件 配置 为 4 核 处 理 器 Intel Core iS 1.9GHz， 内 存 


8G。 以 G-DINA 模型 和 高 相关 多 元 正 态 模 型 模拟 被 试 知 识 状态 的 实验 条 件 为 例 ， 说 明 CAT 


C1) 选择 对 应 实验 条 件 下 在 R 环境 中 用 GDINA AM mit 包 构 建 的 题库 〈 细 节 参 照 第 


4.2 节 ); 


(2) 采用 高 相关 多 元 正 态 模型 模拟 被 试 的 知识 状态 作为 被 试 知 识 状态 的 真 值 ， 并 模拟 
被 试 采用 G-DINA 模型 作答 题库 所 有 题 , 用 期 望 后 验 法 估计 其 能 力 值 作为 被 试 能 力 真 值 CHR 
节 参 照 第 4.2 4); 


(3) 随机 分 配 3 题 给 被 试 作答 ， 根 据 初始 3 题 的 反应 ， 估 计 被 试 知 识 状 态 初 值 和 能 


初 值 ; 
(4) 分 别 


采用 Gini K, ASI 策略 ，IPA RIK, JSD 策略 选 题 进入 各 自 CAT 的 过 程 ， 
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被 试 每 作答 一 个 项 目 ， 采 用 最 大 后 验 法 估计 被 试 知识 状态 和 采用 期 望 后 验 法 估计 被 试 能 
(5) HE (4) 直到 满足 测验 停止 要 求 ; 
(6) 测验 结束 后 根据 每 种 策略 下 的 最 终 被 试 知识 状态 估计 值 和 被 试 能 力 估计 值 计 算 第 
4.5 节 中 的 评价 指标 。 
为 消除 随机 效应 ,每 次 模拟 1000 个 被 试 , 每 种 实验 条 件 重复 10 次 , 计算 每 种 实验 条 件 


下 各 评价 指标 的 平均 值 〈 见 第 5 节 的 表格 ，SD 表示 其 标准 差 )。 


" 


5 实验 结果 
5.1 分 类 精度 的 比较 

表 1 表明 ，Gini 策略 和 IPA 策略 的 模式 判 准 率 远 高 于 ASI 策略 和 ISD 策略 ， 且 整体 而 
Fi Gini 策略 的 模式 判 准 率 略 高 于 IPA 策略 ， 这 两 种 策略 在 不 同 实验 条 件 下 的 模式 判 准 率 均 
超过 95% 且 标准 差 都 较 小 ， 说 明 他 们 的 分 类 结果 稳定 可 靠 ,可 适用 于 不 同 CDM 的 题库 或 多 


种 CDM 混合 题库 。 
图 1 是 各 选 题 策略 在 不 同 测验 长 度 上 的 表现 , 随 测验 长 度 的 增加 ,各 选 题 策略 的 模式 判 
准 率 逐 渐 提 高 。Gini 策略 和 IPA 策略 的 变化 曲线 非常 相似 ,增长 最 快 ， 始 终 保持 最 好 的 判 准 
率 。 在 短 测验 (TL<15) 中 , Gini, IPA 和 ASI 策略 的 模式 判 准 率 很 接近 , 在 中 长 测验 (TL>15) 
Ji, ASI 策略 的 增长 速度 要 低 于 前 两 者 。 与 表 1 的 结论 相同 ，Gini 和 IPA 策略 在 不 同 实验 条 
件 下 的 变化 曲线 没有 太 大 差异 ， 因 此 他 们 在 短 测验 和 中 长 测验 下 均 能 获得 较 好 的 分 类 精度 。 
表 1 20 题 各 选 题 策略 的 模式 判 准 率 均值 及 标准 关 


选 题 策略 
知识 状 
CDM 
模型 态 生 成 Gini ASI IPA JSD 
模型 
Mean SD Mean SD Mean SD Mean SD 
G-DINA HO 97.00% 0.009 89.28% 0.025 96.10% 0.010 85.04% 0.024 
MV-0.8 97.22% 0.004 93.05% 0.011 97.44% 0.008 92.02% 0.014 
MV-0.2 96.84% 0.007 90.78% 0.014 96.35% 0.006 87.51% 0.016 
DINA HO 97.45% 0.010 90.99% 0.032 97.18% 0.011 75.31% 0.060 
MV-0.8 97.24% 0.011 93.45% 0.017 97.06% 0.010 91.46% 0.023 
MV-0.2 97.57% | 0.006 93.76% 0.007 96.93% 0.008 86.23% 0.050 
R-RUM HO 95.41% 0.010 87.61% 0.021 95.38% 0.010 76.64% 0.028 


MV-0.8 


MV-0.2 


97.09% . 0.009 


96.81% . 0.008 


92.4596 


87.88% 


0.014 


0.022 


96.82% 0.008 


96.82% 0.012 


91.67% 


80.52% 


0.010 


0.038 


BUN 0.8, MV-02 指 被 试 久 


VE: HO 指 被 试 知 识 状态 有 


H HO-CDM 4 


0 识 状态 用 多 


5.2 能 力 估计 精度 的 比较 


X 2 表明 ， 除 在 DINA 模型 下 属性 间 低 相关 的 实验 条 件 外 ，4 F 


元 正 态 模型 4 


ER, MV-0.8 指 被 试 知识 状态 用 


EJ EJE 


多 元 正 态 模 型 生成 


E 间 相关 系数 为 0.2。 


无 偏 的 。ASI 策略 的 估计 偏差 最 小 ， 其 次 是 Gini 策略 。IPA 策略 
值 ， 与 之 相 比 ，Gini 策略 稍稍 差 
题 策 略 的 能 力 估计 均 方差 值 非常 接近 ， 最 大 差异 仅 有 0.03， 而 在 其 他 条 件 下 ， 最 大 差异 达 


0.22， 这 说 明 属性 间 高 相关 时 ，4 种 选 题 策略 均 可 ) 
策略 。Gini 和 IPA 策略 的 能 力 估计 精度 与 CDM AX, Gini 策略 所 受 
JSD 策略 的 能 力 估计 精度 既 与 CDM 有 关 又 与 被 试 知识 状态 分 布 有 关 。 
加 被 试 能 力 估计 的 均 方 差 值 在 下 降 ， 即 参数 估计 精度 在 上 升 ， 


图 2 表明 随 测验 长 度 的 增 


Gini 和 IPA 策略 均 方 差 值 下 降 速 度 最 快 ， 且 两 种 策略 的 下 降 1 


趋势 最 慢 。 当 属性 间 高 相关 时 , 4 种 选 题 策略 的 曲线 基本 重合 , 在 其 他 条 件 下 , 与 图 
在 短 测验 (TL<15) F, Gini, IPA Fil ASI 策略 的 曲线 基本 一 致 ， 在 中 长 测验 (CTL>15) 后 ， 


ASI 策略 不 如 前 两 者 。 因 此 Gini 和 IPA 策略 在 短 测验 和 中 长 测验 下 均 能 获得 较 好 的 能 力 估 


昌 属 性 间 相 关系 


| 线 基 本 相同 ,JSD 策略 的 下 降 


策略 对 能 力 估计 基本 是 
\ 有 最 小 的 能 力 估计 均 方差 
些 ， 但 最 大 差异 也 仅 有 0.04。 当 属性 间 高 相关 时 ，4 种 选 


， 而 其 他 条 件 下 可 优先 考虑 IPA 和 Gini 


影响 更 小 一 些 。ASI 和 


1 类 似 ， 


计 精 度 。 
K 2 20 题 各 选 题 策略 的 Bias 和 RMSE 
、 选 题 策略 
知识 状 
pus SER Gini ASI IPA JSD 
SC. 1ni 
模型 
模型 
Bias RMSE Bias RMSE Bias RMSE Bias RMSE 
G-DINA HO 0.02 0.32 0.00 0.41 0.04 0.28 0.02 0.40 
MV-0.8 0.00 0.29 0.01 0.29 0.02 0.29 0.02 0.30 
MV-0.2 0.03 0.27 0.02 0.32 0.07 0.27 0.05 0.42 
DINA HO -0.08 0.40 -0.02 0.41 -0.14 0.37 -0.05 0.46 
MV-0.8 0.02 0.34 0.01 0.32 -0.03 0.35 -0.08 0.35 
MV-0.2 -0.12 0.38 -0.09 0.36 -0.24 0.42 -0.28 0.52 


R-RUM HO -0.07 0.35 -0.01 0.42 -0.14 0.35 -0.02 0.45 
MV-0.8 0.00 0.30 -0.02 0.30 -0.03 0.30 -0.03 0.32 
MV-0.2 -0.04 0.31 -0.01 0.43 -0.10 0.29 -0.05 0.51 
5.3 题库 使 用 均匀 性 的 比较 
K 3 20 题 各 选 题 策略 的 题库 使 用 均匀 性 指标 
. 选 题 策 略 
知识 状 
CDM 、 
态 生 Gini ASI IPA JSD 
模型 
模型 2 2 2 2 
x TOE x TOE x TOE x TOE 
G-DINA HO 82.38 0.41 98.75 0.47 85.34 0.42 44.45 0.26 
MV-0.8 69.37 0.36 77.30 0.39 77.11 0.39 53.26 0.29 
MV-0.2 72.50 0.37 91.36 0.44 82.94 0.41 37.08 0.23 
DINA HO 70.91 0.36 86.88 0.43 72.68 0.37 53.52 0.29 
MV-0.8 56.55 0.31 66.74 0.35 58.98 0.32 59.31 0.32 
MV-0.2 72.11 0.37 83.17 0.41 67.31 0.35 58.41 0.31 
R-RUM HO 95.78 0.46 109.29 0.52 94.55 0.46 58.22 0.31 
MV-0.8 85.70 0.42 84.99 0.42 87.92 0.43 56.27 0.30 
MV-0.2 88.92 0.44 105.01 0.50 95.48 0.46 60.78 0.32 


表 3 表明 ，JSD 策略 的 题库 利用 均匀 性 优 于 其 他 3 种 策略 。Gini 和 IPA 策略 的 题库 利 


近 ， 而 在 其 他 条 件 下 差异 较 大 。4 种 选 题 策略 的 题库 利 ) 


被 试 知识 状态 的 分 布 有 关 。 


5.4 选 题 用 时 的 比较 


K 4 20 题 各 选 题 策略 的 选 题 用 时 指标 《和 


图 3 表明 ， 随 测验 长 度 的 增加 ， 各 选 题 策略 的 卡 方 值 在 下 降 ， 
高 。 每 种 选 题 策略 在 不 同 条 件 下 的 曲线 变化 基本 相似 , ISD 的 下 降 
K, ME DNA 模型 下 属性 间 高 相关 时 ，4 种 选 题 策略 的 下 降 


用 率 指标 值 相 近 ， 整 体 而 言 ，Gini 策略 的 题库 利用 均匀 性 和 好 于 IPA 策略 ， 


ASI 策略 。 当 在 DINA 模型 下 属性 间 高 相关 时 ，4 Ph ae eS 


昌 线 最 好 ， 


昌 线 基本 重合 。 


Az: $5) 


两 者 均 好 于 
阁 的 题库 利用 率 指标 值 比较 接 
均匀 性 指标 既 与 CDM 有 关 ， 又 与 


即 题库 使 用 均匀 性 逐渐 提 


其 次 是 Gini 策 


CDM 知识 状态 生 

Bm 成 模型 Gini ASI IPA JSD 

G-DINA HO 2.27 0.82 22.27 0.16 
MV-0.8 2.27 0.82 21.95 0.16 
MV-0.2 227 0.81 22.18 0.16 

DINA HO 227 0.81 21.96 0.16 
MV-0.8 2.28 0.80 21.91 0.16 
MV-0.2 2.26 0.78 22.04 0.16 

R-RUM HO 2.28 0.86 21.96 0.16 
MV-0.8 2.27 0.81 22.14 0.16 
MV-0.2 2.26 0.81 22.01 0.16 


表 4 表明 ，JSD 策略 的 选 题 用 时 最 少 ， 其 次 是 ASI 策略 ， 接 着 是 Gini 策略 ， 用 时 最 多 


的 IPA 策略 。IPA 策略 的 选 题 月 


基本 不 变 ， 因 为 选 题 时 间 主 要 


性 个 数 确 定 和 题库 容量 已 知 ， 选 题 算法 的 运 外 


与 选 题 策略 算法 


日 时 是 Gini 策略 的 近 10 倍 。 每 种 选 题 策 略 在 不 同 条 件 下 |) 


量 起 决定 性 作用 。 


的 运算 量 ， 属 性 个 数 和 题库 容量 有 关 ， 当 属 
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一 上 一 Gini 
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6 总 结 和 讨论 


6.1 总 结 


本 文 利用 基尼 指数 的 优良 性 质 , 构造 一 种 新 的 双 目 


明 新 策略 的 测 申 


时 精度 较 高 , 


估 和 微观 认 知 诊断 提供 了 新 的 更 优 的 方法 。 

实验 考察 了 3 种 CDM F 
HS. ASI 策略 、IPA 策略 和 ISD 策略 》 的 表现 ， 综 合 来 看 ， 得 到 如 下 结论 (1〉Gini 策略 和 
IPA 策略 在 分 类 精度 指标 ， 能 力 估计 精度 指标 和 题库 使 用 均匀 性 指标 上 均 具 有 相似 的 表现 ， 
测量 精度 高 且 受 CDM 模型 和 被 试 知识 状态 分 布 的 影响 较 小 , 可 以 适用 于 实际 测验 中 含 多 种 
认 知 诊断 模型 的 混合 题库 。 总 体 而 言 ，Gini 策略 稍 好 于 IPA 策略 ， 且 Gini 策略 的 选 题 用 时 


仅 为 IPA 策略 的 十 分 之 一 ; (2) Gini 策略 和 ASI 策略 都 是 两 种 信息 量 线性 加 权 的 组 合 策略 ， 


bs CD-CAT 的 选 题 策略 , 模拟 实验 对 


六 


顾 题库 利用 均匀 性 并 能 快速 实时 响应 ， 为 同时 兼顾 宏观 能 力 评 


13 种 不 同 被 试 知 识 状态 分 布下 ，4 种 双 目 标 选 题 策略 〈Gini R 


在 短 测 验 时 ， 两 种 选 题 策略 在 测量 精度 指标 上 的 表现 很 接近 ， 而 在 中 长 测验 时 ， 虽 然 ASI K 


略 的 用 时 是 Gini 策略 的 1/3, 1E ASI 策略 的 测量 精度 和 题库 使 用 均匀 性 均 不 如 Gini 策略 ; 
(3) Gini 策略 与 JSD 策略 相 比 ，JSD 策略 在 题库 使 用 均匀 性 和 选 题 用 时 指标 上 有 较 大 的 优 


势 ， 但 其 测量 精度 远 不 如 Gini 策略 。 


综 上 所 述 ， 短 测验 时 ，Gini 策略 、IPA 策略 和 ASI 策略 均 有 较 好 的 测量 精度 ， 都 值得 推 


荐 。 对 于 中 长 测验 时 ， 对 于 属性 个 数 少 和 题库 容量 较 小 的 情况 下 ， 推 荐 使 用 Gini 策略 和 IPA 


策略 ， 而 当 属 性 个 数 增多 和 题库 容量 增 大 时 ， 


个 数 非 常 多 和 题库 容量 非常 大 时 ， 推 荐 使 


高 于 JSD 策略 。 


6.2 讨论 


推荐 使 用 Gini 策略 。 当 属性 间 高 相关 且 必 | 


] ASI $H 


各 和 


HE 


JSD "HE, ASI 策略 的 测验 精度 稍 


Gini 策略 是 基于 被 试 知 识 状态 类 别 的 后 验 概 率 和 被 试 能 力 估计 置信 区 间 的 后 验 概 率 构 


化 且 采 用 了 最 小 错误 率 贝 叶 


造 的 ， 因 此 受 CDM 和 被 试 知识 状态 分 布 的 影响 较 小 ， 这 


斯 决策 确定 被 试 的 知识 状态 ， 


种 构造 方法 直接 反映 后 验 概率 的 变 
因而 测量 的 精度 也 非常 高 。 基尼 指 


数 的 线性 加 权 方 式 , 使 得 其 对 后 验 概率 的 变化 相 比 炉 而 言 更 加 敏感 ， 从 而 有 助 于 扩大 选 题 范 


在 某 些 条 件 下 〔 如 被 试 的 和 


围 提 高 题库 利用 均匀 性 ， 且 加 法 运算 速度 较 快 ， 能 满足 Dual-CAT 实时 响应 的 需求 。 
识 状态 由 高 阶 模型 生成 )，Gini 策略 的 能 力 估 计 精 度 会 稍 低 


于 IPA 策略 ， 而 此 时 Gini 策略 的 模式 判 准 率 会 稍 高 于 IPA 策略 ， 可 能 的 原因 是 组 合 策略 中 
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能 力 的 f 
衡 的 结果 。Zheng 和 Chang (2016) 指出 当 已 知 题库 参数 ， 公 式 G) 


ni 


预先 计算 ， 缩 得了 ASI 策略 的 选 题 用 时 ， 而 Gini 策略 是 定义 在 随机 变量 后 验 概率 ， 必 须根 


据 被 试 的 作答 反应 实时 计算 ， 因 此 选 题 用 时 会 稍 有 增加 。 


县 量 和 知识 状态 的 信息 量 共 同 作用 选择 下 一 题 ， 两 种 信息 量 在 选 题 过 程 中 互相 均 


中 的 KL 信息 量 可 以 


JSD 策略 仅 计 算 基 于 当前 估计 值 的 KL 距离 ,运算 量 小 , 选 题 非常 快 ， 而 Gini 策略 需 考 


虚 有 限 集合 和 区 间 范 围 内 后 验 概率 变化 , 需要 求 和 与 积分 运算 , 因此 选 题 耗 时 会 超过 ASI 策 
各 和 ISD 策略 。 当 测验 长 度 较 短 时 ,能力 估 计 值 和 被 试 知 识 状 态 估 计 值 偏离 真 值 较 远 , 基于 


他 们 当前 估计 值 的 JSD 策略 的 选 题 范围 比较 宽泛 ， 从 而 使 得 题库 的 利 ) 


j 率 会 更 加 均匀 ; Gini 


策略 不 依赖 于 能 力 和 知识 状态 的 当前 估计 值 ， 而 依赖 于 他 们 的 概率 分 布 ， 选 题 会 更 趋 集中 。 


Gini 策略 的 测验 精 较 高 ,但 其 题库 利用 率 不 如 JSD RIK Wang, Chang 和 Huebner(2011 ) 


的 研究 表明 限制 渐进 法 CRestrictive Progressive Method: RP) All bE fill BAY (Restrictive 
Threshold Method: RT) 能 均衡 测量 精度 和 项 目 曝光 率 ， 下 一 步 研 究 拟 将 Gini 策略 与 RP 和 


RT 方法 结合 ， 提 高 Gini 策略 的 题库 利用 均匀 性 。 测 量 精度 和 题库 利用 均匀 性 是 一 对 相互 冲 


突 的 指标 。 使 


cx 


控制 项 目 曝光 技术 后 ,题库 利用 均匀 性 会 更 好 , 但 也 会 带 来 测量 精度 下 降 的 


不 利 影响 ， 如 何 权衡 需要 进一步 研究 。 男 外 ,使 用 控制 项 目 曝光 技术 后 ， 各 选 题 策略 之 间 的 
差异 是 否 会 消除 ,也 有 待 进一步 研究 。 当 属性 个 数 较 多 时 和 题库 容量 较 大 时 ，Gini 策略 的 选 


题 用 时 可 能 会 超过 用 户 的 期 望 值 〈 延 时 超 2 秒 ) (Nah, 2004)， 下 一 步 


研究 拟 将 Gini 策略 与 


动态 搜索 算法 (Zheng & Wang, 2017) 结合 ， 对 其 优化 以 减少 选 题 用 时 。 


本 文采 用 分 离 建 模 的 方法 获得 两 


模型 的 参数 来 构建 Dual-CAT 的 题库 ， 题 库 项 目 是 


类 
否 完全 拟 合 所 关注 的 模型 还 需要 进一步 探查 以 期 获得 更 准确 的 测量 结果 。 文 中 Dual-CAT 


的 题库 参数 的 建立 过 程 是 先 模拟 CDM 的 参数 和 项 目的 属性 向 量 ， 根 和 
应 数据 ， 然 后 用 反应 数据 估计 IRT 参数 ， 这 是 目前 研究 中 常用 的 方法 


5 CDM 模型 获得 反 


(Dai et al., 2016; 


Kang et al., 2017; Wang et al., 2012, 2014)， 能 否 采 用 先 模拟 IRT 的 项 目 参数 ， 根 据 IRT 模型 


获得 反应 数据 ， 然 后 用 反应 数据 估计 CDM 参数 和 项 目 属性 向 量 的 方法 构建 题库 ? 在 这 种 


方式 构建 题库 下 各 选 题 策略 的 表现 有 竺 进一步 探查 。 


随 着 测验 数据 的 复杂 性 和 测验 要 求 的 限定 , 选 题 策略 的 发 展 也 要 适应 新 测验 形式 的 发 展 ， 
比如 属性 多 级 化 项 目测 验 〈 涂 冬 波 ， 殖 艳 ，2015)、 多 级 评分 项 目测 验 〈 殖 艳 ， 苗 莹 ， 涂 冬 


波 ，2016)、 多 维 项 目测 验 ( 韩 雨 婷 等 , 2018; Hsu & Wang, 2019)、 多 


阶段 CD-CAT (FZ, 


王 晓 庆 ， 丁 树 良 ， 熊 建华 ，2018; Kaplan & dela Torre, 2020)、 融 入 非 统计 约束 的 多 阶段 测验 
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(Lin & Chang, 2019; Liu, Cai, & Tu, 2018) 以 及 结合 反应 时 的 CAT 测验 (Fan, Wang, Chang, 
& Douglas, 2012; Huang, 2020)， 可 探讨 基于 基尼 指数 的 选 题 策 略 在 这 些 测 验 场 景 下 的 效果 


及 其 应 用 。 
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Existing literature has shown that dual-objective CD-CAT testing can facilitate the 
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achievement of measurement objectives for both formative and summative assessments. And 
the Gini Index can be used as a measurement for the degree of uncertainty of random variables 
since a smaller Gini value indicates a lower degree of uncertainty. Hence, this paper proposed 
a Gini-Index-based selection method for dual-objective CD-CAT, and it measured the changes 
in the posterior probability of knowledge state and confidence interval for latent traits 
estimation. By adopting the Bayesian Decision Theory, the potential information of participants 
could be detected based on participants’ responses and changes in posterior probability 
distribution of two the random variables. 

Monte Carlo Simulation was used to test the performances of the selection method based 
on Gini, ASI, IPA and JSD, respectively. The item banks measured 5 attributes consisting of 
250 items in total, and each item measured 3 attributes at most. The true knowledge state of 
each participant was generated by HO-CDM and Multivariate Normal Models (both means 
were 0 and covariance coefficient was 0.8 and 0.2, respectively). G-DINA, DINA and R-RUM 
were adopted as the cognitive diagnostic models and the item bank of each of these three models 
included both CDM and 2PL parameters. Specifically, CDM parameters were generated by a 
G-DINA package in R software with the slipping and guessing parameters randomly selected 
from uniform distribution in a range from 0.05 to 0.25. The 2PL parameters were estimated by 
factoring in the responses elicited from 3,000 participants’ responses to all items in item banks 
using the mirt package. Four indexes, namely the pattern measurement rates, root mean square 
error of latent trait, chi-square value and time needed for item selection, were adopted in 
comparing the efficiency of different item selection methods. The value for each index was the 
mean of 10 repeated simulations of 1,000 participants’ responses to all item bank. 

The results showed that (1) The Gini and IPA selection methods had similar performance 
in terms of pattern measurement rates, root mean square error of latent trait and chi-square 
value. Both methods were high in precision measurement and low in sensitivity to CDM and 
the distribution of participants’ cognitive patterns, making both methods applicable to the 
item banks featuring a mixture of cognitive diagnosis models. By comparison, the Gini 
method outperformed slightly the IPA method in pattern measurement rates and time needed 
for item selection in which the Gini method was only one-tenth that of the IPA method; (2) 
Both the Gini and ASI selection methods were weighted linear combination approaches. The 
performances of the two methods were very close in the short test. In the long test, however, 
although time needed for item selection using the ASI method was only one-third that of the 
Gini method, the latter was superior to the former in terms of measurement accuracy and chi- 
square value; (3) Although the JSD method outperformed the Gini method in terms of 
uniformity of item bank usage and time needed for item selection, its measurement accuracy 
was far less than the latter. 

To summarize, the Gini, IPA and ASI selection methods all have good measurement 
accuracy and hence are all recommended for short tests. For medium and long tests with a 
limited number of attributes and a smaller item bank, the Gini and IPA selection methods are 
recommended. As the number of attributes and item bank size grow, the Gini method is 
recommended. When there are high correlations among different attributes, as well as a large 
number of attributes and big item bank size, the ASI and JSD selection methods are 
recommended with the ASI method slightly outperforming the JSD method in measurement 
accuracy. 
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